La Precedencia Lógica de la Validación
La inferencia estadística es inherentemente condicional. Cualquier conclusión que obtengamos sobre un parámetro $\theta$ está estrictamente condicionada a la suposición de que los datos observados $s$ fueron generados por alguna distribución dentro de nuestro modelo hipotético $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$.
Estimación: Supone que $P_{verdadero} \in \mathcal{M}$ y busca el "mejor" $\theta$ (por ejemplo, el MLE $\hat{\theta}$). Opera dentro del modelo.
Verificación de Modelos: relaja la suposición de que el modelo es verdadero. Pregunta si cualquier $\theta \in \Theta$ puede explicar los patrones en los datos. Opera sobre del modelo.
Crisis de Relevancia (Trampa)
Si la distribución verdadera que generó los datos se encuentra fuera del modelo estadístico $\mathcal{M}$, entonces $\theta$ pierde su significado científico. Caemos en una trampa estadística: la relevancia de cualquier inferencia posterior se vuelve cuestionable. Esencialmente estamos calculando las propiedades de una ficción matemática en lugar de una realidad física.
Ejemplo 9.1.1: El Modelo Normal de Localización
Considera el caso más simple en el que asumimos $X_i \sim N(\theta, 1)$.
Calculamos la media muestral $\bar{x}$. Bajo el modelo Normal, $\bar{x}$ es la estimación óptima para el 'centro' de los datos.
Supongamos que los datos realmente contienen valores atípicos extremos o siguen una distribución con colas pesadas distribución de Cauchy. Aunque aún podemos calcular mecánicamente $\bar{x}$, ya no representa el centro de la distribución de manera significativa. Nuestros intervalos de confianza serán peligrosamente estrechos, lo que lleva a una falsa certeza porque el modelo Normal era inválido.